Objectif : Désambiguïsation des intitulés de conférences renseignés dans les données du HAL, en se basant sur le référentiel CORE
Données à nettoyer :
Données références :
| Variable | Stats / Values | Freqs (% of Valid) | Graph | Missing |
|---|---|---|---|---|
| bibtex_key [character] |
1. {Binary is the new Black 2. {FCA4AI@IJCAI2018 - 6th I 3. {IFOW 2020 - Integrated F 4. {LibraryPress@UF}} 5. {Workshop AutoML 2018 @ I [ 10059 others ] |
2 ( 0.0%) 2 ( 0.0%) 2 ( 0.0%) 2 ( 0.0%) 2 ( 0.0%) 10059 (99.9%) |
0 (0.0%) |
|
| article_type [character] |
1. booktitle =· 2. inproceedings 3. organization =· 4. publisher =· 5. series =· 6. title =· |
29 ( 0.3%) 10028 (99.6%) 2 ( 0.0%) 2 ( 0.0%) 1 ( 0.0%) 7 ( 0.1%) |
0 (0.0%) |
|
| title [character] |
1. Taking advantage of patho 2. Anticipation in the retin 3. New models and preprocess 4. Unit Commitment under Mar 5. An efficient domain decom [ 9901 others ] |
5 ( 0.0%) 4 ( 0.0%) 4 ( 0.0%) 4 ( 0.0%) 3 ( 0.0%) 10008 (99.8%) |
41 (0.4%) |
|
| author [character] |
1. Rubino, Gerardo 2. Laugier, Christian 3. Makhalova, Tatiana and Ku 4. Maumet, Camille 5. Merlet, Jean-Pierre [ 8388 others ] |
14 ( 0.1%) 13 ( 0.1%) 12 ( 0.1%) 12 ( 0.1%) 12 ( 0.1%) 9972 (99.4%) |
34 (0.3%) |
|
| url [character] |
1. https://hal-brgm.archives\ 2. https://hal-brgm.archives\ 3. https://hal-brgm.archives\ 4. https://hal-cea.archives-\ 5. https://hal-cea.archives-\ [ 10030 others ] | 1 ( 0.0%) 1 ( 0.0%) 1 ( 0.0%) 1 ( 0.0%) 1 ( 0.0%) 10030 (100.0%) |
34 (0.3%) |
|
| editor [character] |
1. ACM 2. Benzitoun, Christophe and 3. Chantal Keller and Timoth 4. IEEE 5. AFIHM [ 356 others ] |
11 ( 2.2%) 11 ( 2.2%) 9 ( 1.8%) 9 ( 1.8%) 8 ( 1.6%) 459 (90.5%) |
9562 (95.0%) |
|
| series [character] |
1. Lecture Notes in Computer 2. LNCS 3. Proceedings of Machine Le 4. Leibniz International Pro 5. CEUR Workshop Proceedings [ 996 others ] |
290 (16.9%) 91 ( 5.3%) 30 ( 1.7%) 27 ( 1.6%) 23 ( 1.3%) 1256 (73.2%) |
8352 (82.9%) |
|
| volume [character] |
1. LNCS 2. 1 3. Lecture Notes in Computer 4. 2 5. 18 [ 672 others ] |
24 ( 2.0%) 21 ( 1.8%) 19 ( 1.6%) 11 ( 0.9%) 10 ( 0.9%) 1090 (92.8%) |
8894 (88.3%) |
|
| number [character] |
1. 1 2. 2 3. 3 4. 9 5. 16 [ 150 others ] |
13 ( 5.2%) 11 ( 4.4%) 7 ( 2.8%) 7 ( 2.8%) 6 ( 2.4%) 206 (82.4%) |
9819 (97.5%) |
|
| pages [character] |
1. 1-6 2. 1-8 3. 1-10 4. 1-4 5. 1-5 [ 2272 others ] |
274 ( 6.2%) 236 ( 5.3%) 162 ( 3.7%) 157 ( 3.5%) 137 ( 3.1%) 3460 (78.2%) |
5643 (56.0%) |
|
| year [character] |
1. 2018 2. 2019 3. 2020 4. 2021 5. 2022 |
2523 (25.1%) 2282 (22.7%) 1813 (18.0%) 1823 (18.1%) 1628 (16.2%) |
0 (0.0%) |
|
| month [character] |
1. Jun 2. Jul 3. Sep 4. Oct 5. Dec [ 7 others ] |
1528 (15.5%) 1252 (12.7%) 1242 (12.6%) 960 ( 9.7%) 917 ( 9.3%) 3974 (40.3%) |
196 (1.9%) |
|
| keywords [character] |
1. Formal Concept Analysis 2. accelerated fixed point ; 3. Adaptive Control ; Contro 4. Antivirus ; Evasion ; Win 5. biclustering ; FCA ; patt [ 4802 others ] |
3 ( 0.1%) 2 ( 0.0%) 2 ( 0.0%) 2 ( 0.0%) 2 ( 0.0%) 4830 (99.8%) |
5228 (51.9%) |
|
| pdf [character] |
1. https://hal-agroparistech\ 2. https://hal-agroparistech\ 3. https://hal-brgm.archives\ 4. https://hal-brgm.archives\ 5. https://hal-brgm.archives\ [ 8295 others ] | 1 ( 0.0%) 1 ( 0.0%) 1 ( 0.0%) 1 ( 0.0%) 1 ( 0.0%) 8295 (99.9%) |
1769 (17.6%) |
|
| hal_id [character] |
1. cea-01746138 2. cea-01854072 3. cea-01855997 4. cea-01883311 5. cea-02339800 [ 10058 others ] |
1 ( 0.0%) 1 ( 0.0%) 1 ( 0.0%) 1 ( 0.0%) 1 ( 0.0%) 10058 (100.0%) |
6 (0.1%) |
|
| hal_version [character] |
1. v1 2. v2 3. v3 4. v4 5. v5 [ 2 others ] |
9159 (91.0%) 696 ( 6.9%) 153 ( 1.5%) 36 ( 0.4%) 11 ( 0.1%) 8 ( 0.1%) |
6 (0.1%) |
|
| publisher [character] |
1. IEEE 2. Springer 3. ACM 4. Springer International Pu 5. ACM Press [ 159 others ] |
974 (39.9%) 415 (17.0%) 365 (15.0%) 163 ( 6.7%) 111 ( 4.5%) 413 (16.9%) |
7628 (75.8%) |
|
| doi [character] |
1. 10.1145/nnnnnnn.nnnnnnn 2. 10.1145/1122445.1122456 3. 10.4230/LIPIcs 4. 10.4230/LIPIcs.CVIT.2016. 5. 10.1007/978-3-030-27520-4 [ 3559 others ] |
6 ( 0.2%) 5 ( 0.1%) 4 ( 0.1%) 3 ( 0.1%) 2 ( 0.1%) 3566 (99.4%) |
6483 (64.4%) |
|
| organization [character] |
1. IEEE 2. ACM 3. INSA Lyon 4. Soci'et'e Franaise 5. IFAC [ 267 others ] |
52 (11.7%) 19 ( 4.3%) 17 ( 3.8%) 13 ( 2.9%) 9 ( 2.0%) 333 (75.2%) |
9626 (95.6%) |
|
| booktitle [character] |
1. CDC 2019 - 58th IEEE Conf 2. NeurIPS 2020 - 34th Confe 3. IFAC 2020 - 21st IFAC Wor 4. ICPR 2020 - 25th Internat 5. CDC 2018 - 57th IEEE Conf [ 7331 others ] |
29 ( 0.3%) 19 ( 0.2%) 18 ( 0.2%) 17 ( 0.2%) 16 ( 0.2%) 9936 (99.0%) |
34 (0.3%) |
|
| address [character] |
1. Paris, France 2. Virtual, France 3. Nice, France 4. Nancy, France 5. Lyon, France [ 2104 others ] |
360 ( 3.6%) 128 ( 1.3%) 123 ( 1.2%) 111 ( 1.1%) 110 ( 1.1%) 9232 (91.7%) |
5 (0.0%) |
| Variable | Stats / Values | Freqs (% of Valid) | Graph | Missing |
|---|---|---|---|---|
| title [character] |
1. Australian Institute of C 2. Australian Women in IT Co 3. IEEE Global Telecommunica 4. International Command and 5. International Conference [ 2201 others ] |
2 ( 0.1%) 2 ( 0.1%) 2 ( 0.1%) 2 ( 0.1%) 2 ( 0.1%) 2202 (99.5%) |
0 (0.0%) |
|
| Acronym [character] |
1. IDC 2. ISC 3. EGC 4. ICCC 5. ICEC [ 1963 others ] |
4 ( 0.2%) 4 ( 0.2%) 3 ( 0.1%) 3 ( 0.1%) 3 ( 0.1%) 2015 (99.2%) |
180 (8.1%) |
|
| Source [character] |
1. CORE2021 2. CORE2018 3. ERA2010 4. CORE2014 5. CORE2020 [ 2 others ] |
956 (43.2%) 741 (33.5%) 439 (19.8%) 36 ( 1.6%) 19 ( 0.9%) 21 ( 0.9%) |
0 (0.0%) |
|
| Rank [character] |
1. C 2. B 3. A 4. A* 5. Australasian [ 64 others ] |
982 (44.5%) 564 (25.6%) 334 (15.1%) 64 ( 2.9%) 61 ( 2.8%) 202 ( 9.2%) |
5 (0.2%) |
|
| DBLP [character] |
1. none 2. view |
1364 (61.7%) 848 (38.3%) |
0 (0.0%) |
|
| hasData? [character] |
1. No 2. Yes |
1504 (68.0%) 708 (32.0%) |
0 (0.0%) |
|
| Primary FoR [integer] |
Mean (sd) : 2517.5 (1889.4) min < med < max: 8 < 1006 < 4613 IQR (CV) : 3802 (0.8) |
43 distinct values | 99 (4.5%) |
|
| Comments [integer] |
Mean (sd) : 0.5 (4.4) min < med < max: 0 < 0 < 132 IQR (CV) : 0 (8.5) |
24 distinct values | 0 (0.0%) |
|
| Average Rating [character] |
1. N/A 2. 5.0 3. 4.0 4. 3.0 5. 4.5 [ 10 others ] |
1990 (90.0%) 104 ( 4.7%) 55 ( 2.5%) 13 ( 0.6%) 11 ( 0.5%) 39 ( 1.8%) |
0 (0.0%) |
|
| core_id [integer] |
Mean (sd) : 1106.5 (638.7) min < med < max: 1 < 1106.5 < 2212 IQR (CV) : 1105.5 (0.6) |
2212 distinct values (Integer sequence) |
0 (0.0%) |
Afin de maximiser le match des conférences, un travail de nettoyage et de lémmatisation est préalablement exécuté. Les intitulés sont ainsi mis en minuscules, sans accents et sans caractères spéciaux. Un match est opéré 4 fois pour faire correspondre les intitulés des données du HAL avec ceux du référentiel CORE.
Dans un premier temps ce sont tous les caractères des titres des communications ou des conférences HAL qui sont matchés avec ceux du CORE, à partir de quoi on obtient une distance correspondant au nombre de caractères qui ne sont pas communs au 2 intitulés (si l’intitulé est exactement le même, la distance sera dont de 0). Cette manipulation est réalisée sur les 2 colonnes qui donnent une information sur le titre de conférence dans les données du HAL : title et booktitle, tous deux matchés avec l’unique champ des données CORE indiquant le nom de conférence ; title.
Dans un deuxième temps ce sont tous les mots composant les titres des communications ou des conférences HAL qui sont matchés avec l’acronyme disponible dans CORE. La jointure se fait cette fois sur une base de match exact, contrairement aux manipulations réalisées en premier temps sur les intitulés des communications ou des conférences. Ainsi, lorsqu’un mot du titre disponible dans les données HAL correspond à l’acronyme CORE, les informations du référentiel sont récupérées et viennent enrichir les données HAL. Ici encore la manipulation est réalisée sur les variables HAL title et booktitle, toutes deux matchées avec l’unique champ des données CORE indiquant l’acronyme de la conférence ; Acronym.
La première jointure est réalisée en plafonnant la distance d’écart entre les 2 chaînes de caractères, à 50 caractères. Pour chaque communication HAL, plusieurs conférences sont matchées avec un score de distance allant de 0 à 50. Les données sont ensuite regroupées par communication (hal_id), puis, seule la conférence ayant le nom le plus proche de celui renseigné dans les données HAL, est gardée. Dans le cas où 2 noms de conférences ont la même distance par rapport au nom HAL et que celle-ci est la distance minimale, les 2 conférences sont gardées dans les données enrichies, et devront alors faire l’objet d’un traitement manuel. Ce filtre pour ne garder que les conférences CORE dont le nom s’approche le plus des données HAL, est effectué 3 fois ; sur les données HAL enrichies par CORE via le champ title, sur les données HAL enrichies par CORE via le champ booktitle et sur les données de ces 2 matchs regroupées. Ainsi, pour une même communication enrichie via title et via booktitle, seule la conférence la plus proche du nom CORE est gardée. Pour finir, les intitulés originaux des communications et conférences des 2 sources de données sont réintégrés dans les données, et non plus les intitulés lémmatisés.
Cette première passe de jointure inexacte sur les intitulés de conférences a permis d’enrichir 9684 communications du HAL sur 10069 entrées, soit 96%. Parmi ces jointures, 78 sont exactes, c’est-à-dire que l’intitulé dans les données HAL correspond exactement à celui de la conférence dans les données CORE (en ayant retiré les caractères spéciaux et les majuscules). Ces dernières ont toutes été faites via le champ booktitle des données HAL. Pour les 9606 communications restantes dont la jointure avec les données CORE est inexacte, le match le plus proche (distance minimisée) provient à 17% du champ title, 83% du champ booktitle et 1% des deux (la distance est la même pour ces 2 colonnes de jointure).
La deuxième jointure est réalisée en séparant tous les mots des intitulés des communications et des conférences dans les données HAL, puis chacun d’eux est matché avec les acronymes des données CORE. Si un mot des intitulés HAL est exactement le même que l’acronyme CORE, alors l’entrée est enrichie du référentiel CORE. Ici encore, la manipulation est réalisée sur le champ title, puis sur le champ booktitle présents dans les données du HAL.
De la même manière que le match par distance de chaînes de caractères, les intitulés et acronymes originaux sont réintégrés aux données finales.
Cette deuxième passe de jointure exacte par mot commun à l’acronyme CORE, a permis d’enrichir 7950 communications du HAL, dont 297 qui n’avaient pas été enrichies par la première passe de match sur les chaînes de caractères.
Réalisé par Datactivist
2022/09/26